Световни новини без цензура!
Четири извода за надпреварата за натрупване на данни за ИИ.
Снимка: nytimes.com
New York Times | 2024-04-06 | 13:13:35

Четири извода за надпреварата за натрупване на данни за ИИ.

Онлайн данните от дълго време са скъпа стока. Години наред Meta и Гугъл употребяват данни за ориентиране на своите онлайн реклами. Netflix и Spotify го употребяват, с цел да предлагат повече филми и музика. Политическите претенденти се обърнаха към данните, с цел да научат към кои групи гласоподаватели да насочат вниманието си.

През последните 18 месеца става все по-ясно, че цифровите данни също са от решаващо значение в развиването на изкуствения разсъдък. Ето какво би трябвало да знаете.

The триумф на A.I. зависи от данните. Това е по този начин, тъй като A.I. моделите стават по-точни и по-човешки с повече данни.

По същия метод, по който ученикът учи, като чете повече книги, есета и друга информация, огромните езикови модели – системите които са в основата на чатботовете — също стават по-точни и по-мощни, в случай че им се подават повече данни.

GPT-3, пуснат през 2020 година, беше подготвен на стотици милиарди „ токени “, които всъщност са думи или елементи от думи. По-нови огромни езикови модели бяха подготвени на повече от три трилиона токена.

Обикновено обхождане

Текст от уеб страници, събиран от 2007 година насам.

Уикипедия

(3 милиарда токена)

Английски език

Страници в Уикипедия.

12

милиард

Книги 1 и Книги 2

OpenAI не е обяснил наличието на тези набори от данни. Смята се, че съдържат текст от милиони оповестени книги.

55 милиарда

410 милиарда токена

WebText2

Уеб страници, свързани от Reddit, които са получили три или повече гласа „ за “ – индикация за утвърждение от потребителите.

19 милиарда

WebText2

19 милиарда

Обикновено обхождане

410 милиарда токена

Книги 2

55 милиарда

Книги 1

12 милиарда

Уикипедия

Обикновено обхождане: Текст от уеб страници, събиран от 2007 година насам.

 

WebText2

Уеб страници, свързани от Reddit, които са получили три или повече гласа „ за “ – индикация за утвърждение от потребителите.

 

Книги 1 и Книги 2: OpenAI не е обяснил наличието на тези набори от данни. Смята се, че съдържат текст от милиони оповестени книги.

 

Уикипедия: страници на Уикипедия на британски език.

Източник: OpenAI

От The New York Times

Източник: nytimes.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!